Các hệ điều hành có tổng hợp giọng nói Tổng_hợp_giọng

Các hệ điều hành có tổng hợp giọng nói Tổng_hợp_giọng_nói

Mac OS và Mac OS X

Hệ thống tổng hợp giọng nói đầu tiên được tích hợp vào trong một hệ điều hành là Macintalk trên máy tính Macintosh của hãng Apple Inc. năm 1984. Apple Inc. là một trong những nhà sản xuất đầu tiên đưa hệ thống tổng hợp giọng nói vào các hệ điều hành thương mại. Trong những năm 1990, các giọng nói của Apple được tổng hợp từ các mẫu tự nhiên. Tuy nhiên gần đây, Apple đã thêm các mẫu giọng nói tổng hợp, là Vicki và Bruce - đặt tên theo giáo sư và nghiên cứu sinh tại khoa ngôn ngữ học UCLA, những người đã cung cấp các mô hình giọng nói này. Các phần mềm đầu tiên chỉ có ý định gây sự tò mò cho khách hàng và không được Apple hỗ trợ trực tiếp; tuy nhiên hệ thống tổng hợp giọng nói của máy tính Macintosh đã tiến hóa thành một chương trình được hỗ trợ đầy đủ cho người khiếm thị.

AmigaOS

Hệ điều hành thứ hai trên thị trường tích hợp hệ thống tổng hợp giọng nói là AmigaOS năm 1985. Hệ thống này được cấp phép cho Commodore International từ một bên thứ ba là một hãng phần mềm (Don't Ask Software, nay là Softvoice, Inc.) và nó có một hệ thống mô phỏng giọng người hoàn chỉnh, có cả giọng nam và giọng nữ với các âm sắc khác nhau, dùng các tính năng nâng cao của các chip điện tử trong phần cứng Amiga. Nó được chia làm hai phần: phần đọc bình luận và một thư viện dịch thuật. Phần mềm Speak Handler của Amiga có phần dịch thuật văn bản sang tiếng nói, dùng hệ thống tổng hợp âm vị ARPAbet. AmigaOS coi hệ thống tổng hợp giọng nói như một thiết bị phần cứng ảo, nên người dùng có thể chuyển tín hiệu ra từ phần mềm khác đến nó giống như đến máy in hay màn hình. Một số phần mềm trong Amiga, như trình soạn thảo văn bản, dùng nhiều hệ thống này.

VOCALOID

Vocaloid là một phần mềm tổng hợp giọng hát. Phần xử lý tín hiệu của nó được phát triển thông qua một dự án nghiên cứu chung do Kenmochi Hideki đứng đầu tại Đại học Pompeu Fabra ở Barcelona, Tây Ban Nha, vào năm 2000 và ban đầu không được dự định là một dự án thương mại đầy đủ. Được hỗ trợ bởi tập đoàn Yamaha, nó đã phát triển phần mềm thành sản phẩm thương mại "Vocaloid". Phần mềm cho phép người dùng tổng hợp "ca hát" bằng cách gõ vào lời bài hát và giai điệu. Nó sử dụng công nghệ tổng hợp với giọng hát được ghi lại đặc biệt của các diễn viên lồng tiếng hoặc ca sĩ. Để tạo một bài hát, người dùng phải nhập giai điệu và lời bài hát. Một giao diện kiểu cuộn piano được sử dụng để nhập giai điệu và lời bài hát có thể được nhập trên mỗi ghi chú. Phần mềm có thể thay đổi sự căng thẳng của cách phát âm, thêm hiệu ứng như rung, hoặc thay đổi động lực và giai điệu của giọng nói.

Nhiều ngân hàng giọng (voicebank) đã được phát hành để sử dụng với công nghệ tổng hợp Vocaloid. Mỗi phần mềm của một Vocaloid là "một ca sĩ trong một chiếc hộp" được thiết kế để hoạt động như một sự thay thế cho một ca sĩ thực sự. Như vậy, chúng được giải phóng dưới hình thức nhân học moe. Những avatar này cũng được gọi là Vocaloid, và thường được bán dưới dạng thần tượng ảo; một số đã tiếp tục biểu diễn tại các buổi hòa nhạc trực tiếp dưới dạng chiếu Hologram trên sân khấu. Phần mềm ban đầu chỉ có các giọng hát bằng Tiếng Anh và Tiếng Nhật, sau đó tới chương trình Vocaloid 3 trở đi, nó đã có Tiếng Trung, Tiếng Tây Ban Nha và Tiếng Triều Tiên.

UTAU

UTAU là một ứng dụng tổng hợp tiếng Nhật được tạo ra bởi Ameya / Ayame. Chương trình này tương tự như phần mềm Vocaloid, với sự khác biệt là phần mềm chia sẻ thay vì được phát hành theo giấy phép của bên thứ ba. Vào tháng 3 năm 2008, Ameya / Ayame đã phát hành UTAU, một phần mềm chia sẻ công cụ hỗ trợ miễn phí, nâng cao được thực hiện miễn phí để tải xuống từ trang web chính của nó. UTAU, có nghĩa là "hát" bằng tiếng Nhật, có nguồn gốc từ hoạt động của "Jinriki Bōkaroido" (人力ボーカロイド, Manual Vocaloid), nơi người ta chỉnh sửa một ca khúc hiện có, trích âm, điều chỉnh , và ráp lại chúng để tạo ra một Vocaloid giọng hát tuyệt vời. UTAU ban đầu được tạo ra để hỗ trợ quá trình này bằng cách sử dụng tổng hợp ghép nối. UTAU có khả năng sử dụng các tệp sóng do người dùng cung cấp, để giọng hát có thể được tổng hợp bằng cách giới thiệu lời bài hát và giai điệu. Nó đi kèm với bộ tổng hợp giọng nói của AQUEST "AquesTalk" để tổng hợp các mẫu giọng nói của voicebank mặc định, Utane Uta (cũng có biệt danh là Defoko) trong lần ra mắt đầu tiên của UTAU (sau đó máy phát tự xóa). Tiếng nói cho chương trình UTAU được chính thức gọi là "UTAU" nhưng thường được gọi là "UTAUloids", tham chiếu đến "Vocaloids". Chúng cũng được gọi là "voicebanks" (phổ biến hơn trong các khu vực nói tiếng Anh) và "(voice) libraries" ở Nhật Bản. Vô số voicebanks đã được phát triển bởi người dùng độc lập. Các khẩu lệnh này thường được phân phối trực tiếp từ người sáng tạo của họ thông qua tải xuống qua internet.

UTAU chủ yếu là một chương trình tiếng Nhật và do đó nhiều tiếng nói được tạo ra đặc biệt cho tiếng Nhật. Tuy nhiên, các ngôn ngữ đã được mở rộng và có nhiều UTAUloids song ngữ, chủ yếu là hát bằng tiếng Nhật và tiếng Anh. Trong khi có một số lượng lớn UTAU song ngữ, UTAU đa ngôn ngữ cũng đã được thực hiện có thể hát bằng ba hoặc nhiều ngôn ngữ. Bất kể ngôn ngữ, các menu phần mềm vẫn còn bằng tiếng Nhật và máy tính của người dùng phải ở trong miền địa phương của Nhật Bản hoặc sử dụng AppLocale để chạy phần mềm. Hầu hết tài liệu của nó là bằng tiếng Nhật, nhưng tài liệu hướng dẫn sử dụng của nó đã được dịch sang tiếng Anh. Gần đây, chương trình đã được người dùng dịch sang tiếng Anh và các bản dịch khác vẫn đang chờ xử lý. Tuy nhiên, ngay cả với bản dịch, chương trình vẫn yêu cầu hỗ trợ cho văn bản tiếng Nhật.

Các tệp dự án của UTAU được lưu trong phần mở rộng ".ust" (Utau Sequence Text). Các tệp này có thể được phân phối tự do, cho phép UTAU khác nhau hát cùng một phần. Điều quan trọng cần lưu ý là các nguyên tắc mà người sáng tạo UST đã cung cấp về phân phối và sử dụng .ust. Các nhà sản xuất đã phát triển một số phương pháp sản xuất các ngân hàng âm thanh của họ và kết quả cho voicebanks khác nhau vì điều này.

Không giống như Vocaloid, các tệp UTAU không bị hạn chế vì nó không phải là một giấy phép dựa trên độc quyền. Do đó, có thể sử dụng các sản phẩm giấy phép nguồn mở với phần mềm UTAU, chẳng hạn như các sản phẩm được sản xuất cho loạt Macne (Mac 音シリーズ), được phát hành cho các chương trình Lý do 4 và GarageBand. Những sản phẩm này đã được Act2 bán và bằng cách chuyển đổi định dạng tệp của họ, cũng có thể làm việc với chương trình UTAU. Sau đó, các gói Macne Whisper ☆ Thiên thần Sasayaki, Macne Nana 2S và Macne Petit 2S đi kèm với voicebanks UTAU dựng sẵn.

Voicebank mặc định "Defoko" (Uta Utane) vay mượn giọng nói của cô từ phần mềm AquesTalk, đặc biệt là giọng nói "AquesTalk Female-1" được sản xuất bởi A-quest. Giấy phép đã được cấp cho bản phân phối của cô miễn phí với phần mềm. Koe Utane, "chị em" của Uta, cũng mượn giọng nói của cô từ phần mềm AquesTalk. Namine Ritsu (波音リツ), một giọng hát ban đầu được xây dựng cho UTAU, sau đó được thêm vào một phần mềm khác có tên "Sinsy" là "Namine Ritsu S".

Do thỏa thuận bản quyền của phần mềm, phần mềm giấy phép không mở như VOCALOID không được phép nhập vào phần mềm UTAU.Một số plug-in cho phần mềm cũng đã được phát triển bởi người dùng phần mềm bổ sung và nâng cao giọng hát của phần mềm.

Phần mềm "Sugarcape", dựa trên cùng một ý tưởng phần mềm miễn phí như UTAU, đã bước vào giai đoạn beta. Hiện tại có một phiên bản Mac chính thức của UTAU, có tên là UTAU-Synth. Nó có các tính năng tương tự như phiên bản Windows. Phiên bản UTAU-Synth có thể nhập cả giọng nói và bài hát được tạo bằng phiên bản Windows, nhưng các tệp dự án và cấu hình voicebank của nó không hoàn toàn tương thích với phiên bản Windows.

Vào cuối năm 2017, Plogue Art et Technologie, Inc. đã có một bản chuyển hướng chuyển hướng làm việc để làm cho giọng hát của UTAU xuất hiện trong engine Alter / Ego.

Microsoft Windows

Các hệ điều hành Windows hiện đại dùng các hệ thống tổng hợp giọng nói dựa trên SAPI4 và SAPI5, kèm theo máy nhận dạng giọng nói. SAPI 4.0 có mặt trên các hệ điều hành như Windows 9x.

Nhiều phần mềm, như mIRC, dùng nhiều chức năng trong SAPI 4.0 hay SAPI 5.0. Windows XP có phần mềm Narrator. Hầu hết các phần mềm tương thích với Windows như Notepad, Office hay Adobe Acrobat có thể dùng các tính năng tổng hợp giọng nói; tùy theo lựa chọn trên trình đơn sau khi đã cài đặt. Chúng cung cấp hỗ trợ cho người khiếm thị.

Một ví dụ về việc SAPI 5 cho phép một phần mềm kết hợp công nghệ của Microsoft thành một màn hình nền có tính tương tác cao là Talking desktop. Phần mềm này kết hợp chức năng nhận dạng giọng nói với các phát âm của SAPI 5.

Microsoft Speech Server là một gói hoàn chỉnh để tổng hợp và nhận dạng giọng nói, và có thể ứng dụng cho các hệ thống liên lạc điện thoại có máy tính dùng Windows.

GNU/Linux

Có rất nhiều hệ thống tổng hợp giọng nói cho GNU/Linux và đều có mã nguồn mở. Ví dụ bao gồm Festival, của Đại học Edinburgh, hay gnuspeech, của Tổ chức Phần mềm Tự do.

TI-99/4 và TI-99/4A

TI-99/4 (1979) và TI-99/4A (1981) có thể đọc văn bản ở chế độ đọc từng chữ và đọc cả đoạn.

Trong máy TI Extended BASIC, lệnh CALL SAY có thể được dùng. Ví dụ, CALL SAY("I AM A TEXAS INSTRUMENTS T I 99 4 A HOME COMPUTER") sẽ khiến nó nói về bản thân với giọng Texas. Trong hệ thống này, ở chế độ đọc cả từ, các từ lạ sẽ được phát âm bằng cách đọc từng chữ cái. Ở chế độ đọc từng chữ cái, chất lượng giảm hẳn, dù hệ thống sẽ đọc bất cứ văn bản nào gửi đến nó.

TI-99/4 (1979) và TI-99/4A (1981) chứa các bộ vi xử lý 16-bit.

Alter/Ego

Alter / Ego (Al ルター・エ) là một phần mềm tổng hợp giọng hát thời gian thực được tạo ra bởi Plogue.

Alter/ Ego tổng hợp văn bản thành giọng nói nhằm tạo ra nhiều giọng hát hiện đại hơn, làm việc để đăng các nghiên cứu năm 1990. Nó được cung cấp như một plug-in miễn phí và được sử dụng để làm nhạc để tạo ra giọng hát. Nó hoạt động theo cách tương tự với Chipspeech. Giọng hát được cắt sạch mặc dù âm thanh robot và phần mềm lý tưởng cho thử nghiệm giọng hát. Nó có khả năng chạy các công cụ phát biểu khác nhau.

Hiện tại chỉ có 1 bản phát hành cho phần mềm, nhưng nhiều hơn là do được phát hành theo các phong cách khác nhau. Các giọng hát phát hành được mua riêng. Các giọng hát đến như các tập tin cần phải được trích xuất khi họ thiếu trình cài đặt. Theo thời gian, Plogue đã nhận được nhiều yêu cầu thanh nhạc từ các cá nhân kể từ khi phát hành phần mềm, tuy nhiên chúng bị giới hạn bởi nhóm phát triển nhỏ và bận rộn. Theo ghi nhận của BPB, Alter / Ego được ca ngợi là một công cụ mạnh mẽ theo tiêu chuẩn của phần mềm tự do. Tuy nhiên, nó có một đường cong học tập dốc, mặc dù được đánh dấu là dễ dàng như thế nào để có được bộ tổng hợp để hát lời bài hát, gọi sản phẩm là "vui" để làm việc với general.Later vào tháng 12 năm đó, phần mềm được trao giải nhì 50 danh sách dụng cụ miễn phí

Tạp chí âm nhạc máy tính (Computer Music magazine) cũng đã giới thiệu bộ tổng hợp vào tháng 12 năm 2015.

Vào tháng 1 năm 2016, đã có thông báo rằng có 6 giọng hát mới trong sản xuất. Không có nhiều giọng hát là do sau khi Leora và Marie Orks cuối cùng hai bản cập nhật thanh nhạc. Plogue có kể từ đó chuyển sang các thích ứng khác của động cơ. Một sự thích ứng như vậy là khả năng cho động cơ phát hiện tiếng nói chuyển văn bản thành giọng nói của Microsoft và tải chúng vào động cơ. UTAU cũng đã được thử nghiệm. Plogue lưu ý rằng động cơ được thiết kế để có người dùng thực hiện hỗ trợ giọng hát ngay từ đầu, mặc dù điều này vẫn chưa được thực hiện do thiếu sự hỗ trợ cho điều này.

Cantor

Cantor là một phần mềm tổng hợp giọng hát được phát hành bốn tháng sau khi phát hành ban đầu của Vocaloid bởi công ty VirSyn, và được dựa trên ý tưởng tương tự của synethesizing tiếng nói của con người. VirSyn phát hành phiên bản tiếng Anh và tiếng Đức của phần mềm này. Cantor 2 khoe khoang nhiều giọng nói từ những âm thanh gần như thực tế đến giọng hát biểu cảm cao và giọng nói robot.Cantor không dựa trên các mẫu ca hát, và kết quả của nó được tái tạo bằng một công cụ tổng hợp phụ gia biến hình có nguồn gốc từ bộ tổng hợp phần mềm Cube của VirSyn. Nó được sử dụng để tạo ra 39 âm vị mà VirSyn sử dụng để tái tạo giọng nói hay ca hát tiếng Anh. Mỗi âm vị được tạo ra bằng cách truyền đi một nguồn âm thanh cộng thêm thông qua một bộ lọc formant, nó biến đổi giữa trạng thái bắt đầu và trạng thái kết thúc. Các đáp ứng bộ lọc này có thể chỉnh sửa được: Có thể xác định tối đa sáu đỉnh và ba đáy trong phản ứng bộ lọc formant là các điểm morph. Cantor 2 cung cấp 20 giọng hát sẵn sàng để sử dụng bằng tiếng Anh và tiếng Đức và thêm nhiều tiếng nói mới trên phần mềm Cantor gốc, nâng tổng cộng lên 50 giọng nói.

Máy phát âm thanh được sử dụng kết hợp tổng hợp phụ gia và điêu khắc tiếng ồn mà nó sử dụng đặc biệt cho 50 âm thanh lồng tiếng được cung cấp bởi phần mềm như được đặt làm bộ hoàn chỉnh cho âm thanh chưa được phát âm. Khái niệm về âm thanh được lồng tiếng và không rõ ràng là phức tạp nhưng đã được sử dụng để mô tả cách Cantor có thể nắm vững khả năng ngôn ngữ của nó trong lời nói của con người. Đối với âm thanh lồng tiếng, synth phụ gia điều khiển thành phần âm thanh của âm thanh (dây thanh âm), trong khi tiếng ồn synth kiểm soát thành phần hơi thở (thì thầm). Nó kiểm soát lên đến 256 partials. Khi người dùng tăng cao hơn vào quãng tám, những người này trở thành nhóm được kiểm soát. Đối với những người đã sử dụng phần mềm khác của VirSyn, Cantor là những cơ sở quen thuộc và có nhiều điểm chung với những bộ vi xử lý trước đây mà VirSyn đã sản xuất.

Vì thiết kế của nó, nó giống như một nhạc cụ ảo hơn là một ca sĩ ảo. Nó không bao giờ tuyên bố bắt chước một giọng ca sĩ thực sự và được dự định hoàn toàn cho các hiệu ứng đặc biệt. Mặc dù nó là phức tạp, Cantor được coi là một thiết kế đơn giản tổng thể và tương đối dễ sử dụng cho mục đích của nó.

Nó lưu trữ các khả năng của VST, AU và RTAS. Bởi bản phát hành của Cantor 2, định dạng tệp midi hoàn toàn có chức năng. Nó có thể hoạt động như một phần mềm độc lập hoặc như một plugin; có sự khác biệt nhỏ giữa phần mềm cho cả hai. Nó hoạt động như một phần mềm độc lập hoặc plug-in và hỗ trợ ReWire. Mặc dù nó được phát hành bằng tiếng Đức và tiếng Anh, với sự điều chỉnh của âm thanh đầu ra nó đã có thể tái tạo các ngôn ngữ giọng hát ngoài này và bắt chước các ngôn ngữ khác.Cantor được phát hành sau khi động cơ Vocaloid gốc và được coi là một phần mềm phù hợp để cạnh tranh với động cơ Vocaloid của Yamaha, sau đó chỉ được biết đến ở bán cầu tây bởi Vocaloids 'Leon', 'Lola' và 'Miriam'. Cantor đạt đến một mức độ tổng hợp giọng hát mà chưa đạt được.

Một bản demo của phần mềm đã được phát hành. Nó yêu cầu mua một dongle elicence để tải về bản demo, cũng như các phần mềm đầy đủ nếu nó được mua điện tử. [1] Phiên bản cuối cùng, Cantor 2.1 được phát hành vào ngày 6 tháng 2 năm 2007. Mặc dù các bản cập nhật đã ngừng hoạt động, phần mềm này chưa bao giờ bị xóa khỏi bán hàng.

Album Light + Shade của Mike Oldfield có cả ca khúc Vocaloid 'Miriam' cùng với phần mềm Cantor trong bài hát "Tears of a Angel".

Mặc dù là một chương trình đối thủ với Vocaloid, nó có thể được mua trên trang web của Crypton Future Media.

CeVIO

CeVIO là tên tập thể của một loạt các dự án phần mềm máy tính, bao gồm Vision (digital signage) và Creative Studio (phần mềm tạo âm thanh). CeVIO được tạo ra để hỗ trợ việc tạo nội dung do người dùng tạo. Nó hoạt động thông qua phương pháp chuyển văn bản thành giọng nói. Nó cho phép phần mềm tạo âm thanh để tổng hợp giọng nói và giọng nói. Bài phát biểu và bài hát là các tính năng chính của chương trình này. Phần Speech cung cấp một từ điển lớn các từ mà Sato Sasara, Suzuki Tsudumi và Takahashi nói và chính xác bằng tiếng Nhật, mặc dù bạn có tùy chọn tự chỉnh sửa nó nếu cần thiết. Phần Speech được tạo ra với sự trợ giúp của phương pháp HTS, phương pháp này nổi tiếng trong cơ sở người hâm mộ VOCALOID vì phương pháp này tạo ra các bộ tổng hợp trực tuyến Sinsy, Open J-Talk, Renoid Player, và nhiều hơn nữa. Phần Speech cung cấp các loại giọng nói khác nhau cho mỗi nhân vật.

Ngữ điệu giọng nói của CeVIO Creative Studio có thể được điều khiển bằng ba thông số: vui vẻ, tức giận và buồn. Những thứ khác cũng có thể được kiểm soát, chẳng hạn như âm lượng và tốc độ của phụ âm và nguyên âm.

Phần mềm ban đầu được phát hành là "CeVIO Creative Studio FREE" với Sato Sasara là giọng nói duy nhất. Một là miễn phí để tạo ra các bài hát, chèn lời bài hát, và thêm hơi thở vào cuối các ghi chú, nhưng ngay cả sau đó những người sẽ bị cuốn vào cuối của cô đã tự động thiết lập hơi thở. Bất cứ điều gì khác sẽ yêu cầu phần mềm bên ngoài nhưng không thực sự ngăn chặn sự xáo trộn của quá trình chuyển đổi nguyên âm của cô. Sau khi phát hành "CeVIO Creative Studio S" vào ngày 14 tháng 11 năm 2014, phiên bản MIỄN PHÍ đã được thay thế bằng bản dùng thử miễn phí một tháng của phiên bản đầy đủ. Phiên bản demo miễn phí không còn có sẵn kể từ ngày 19 tháng 11 năm 2014.

Trong phiên bản đầy đủ, nhiều tùy chọn để tinh chỉnh trở nên khả dụng. Fine-Tune Amplitude Timing, cho phép chỉnh sửa choppiness. Quảng cáo chiêu hàng có thể được điều chỉnh như trước đây, nhưng giờ đây cũng có thể chỉnh sửa âm thanh nổi, cùng với thời gian rung và rung cũng có thể chỉnh sửa được. Quan trọng nhất, khối lượng và động lực có thể được chỉnh sửa. Yếu tố giới tính cũng có sẵn, điều này làm cho giọng nói kém hoặc trưởng thành hơn. Tùy chọn để nhập MIDI và .xml vẫn tồn tại. Phần mở rộng của tệp cũng đã thay đổi từ ".ccs" thành ".csv" của phiên bản miễn phí.

Chipspeech

Chipspeech là một phần mềm tổng hợp giọng hát được tạo ra bởi Plogue với mục tiêu tái tạo các bộ tổng hợp năm 1980.Phần mềm này được sử dụng để tạo giọng hát để sử dụng trong âm nhạc. Chipspeech được thiết kế để sản xuất giọng hát kiểu cổ điển từ các bộ tổng hợp được sử dụng bởi ngành công nghiệp âm nhạc trong những năm 1980. Do đó, giọng hát không có ý nghĩa thực tế và phù hợp hơn cho thử nghiệm âm thanh. Nó hoạt động như một phương pháp Text-to-speech. Người dùng gõ lời bài hát vào và nhận kết quả phát ngay lập tức, đó là một khả năng vượt ra ngoài soundchips gốc mà giọng hát phần mềm được dựa trên. Phần mềm đơn giản như Vocaloid. Mặc dù tiếng Anh và tiếng Nhật đến như là tiêu chuẩn, các ngôn ngữ khác có thể được tạo ra bằng cách nhập trực tiếp các âm tiết. Mặc dù giọng hát giống như con người có thể đạt được, kết quả luôn luôn là máy hơn là giống như con người. Nó có khả năng các phương pháp tổng hợp khác nhau hoặc tái lấy mẫu. Ngoài phiên bản 1.032 của phần mềm, chương trình "Nói và Chính tả" mới được thêm vào tạo tính năng uốn mạch.

Bản thân Chipspeech được tạo ra như là kết quả của nghiên cứu cho Chipsounds bởi Plogue trong những năm 2000. Bản thân David Viens thường xuyên thu thập Soundchips ngay cả khi không cần chúng. Sự ám ảnh này cuối cùng dẫn đến các sự kiện tiếp theo đã tạo ra phần mềm Chipspeech sau khi ông đã trải qua nhiều năm hack, chế tạo protoboard, thăm dò và kỹ thuật đảo ngược của các chip thoại. Ông lưu ý rằng mục tiêu chính của phần mềm là trở thành một trình mô phỏng ca hát chứ không phải là phần mềm chuyển văn bản thành giọng nói. Dữ liệu nguồn của mỗi giọng hát là 8 kHz hoặc 10 kHz. Mặc dù tất cả nỗ lực của họ, dự án đã dừng lại. Hubert Lamontagne đến với công ty Plogue với kiến thức về ngữ âm, Hubert đã quan tâm đến việc tạo ra một bộ tổng hợp âm thanh cổ điển, ông đã thiết kế bộ tổng hợp để làm việc ngoài việc trở thành một thư viện âm thanh.

Ban đầu nó xuất hiện với 7 "ký tự" khi mua, nhiều giọng hát đã được thêm vào từ đó và tiếp tục được thêm vào. Những nhân vật đi kèm với cốt truyện của riêng mình và được dựa trên một bộ tổng hợp âm thanh. Giải trí của những tiếng nói đã được thực hiện với sự cho phép từ người có giấy phép tương ứng của họ. Bản thân Plogue đã giành được quyền đối với dữ liệu bài phát biểu từ ba trò chơi TI-99 / 4A (Alpiner, Parsec và Moon Mine) và từ vựng nội bộ của Thiết bị nói tiếng TI. Quá trình giành quyền cho giọng hát đã mất hơn 10 năm, vì công ty không muốn coi thường chủ bản quyền ngay cả khi gặp các vấn đề như chủ giấy phép đã phá sản. Và mặc dù công nghệ này dễ thi đua, nhưng dữ liệu cần thiết cho mô phỏng thì không.

Vào tháng 1 năm 2016, Plogue thông báo rằng Hubert Lamontagne đã tìm ra cách để cải thiện chất lượng. Vào ngày 9 tháng 2, Vers. 1.066 đã được phát hành. Lỗi cố định này với Deeklatt và Otto Mozer. Những cải tiến về giọng nói cho Dandy 704 và Bert Gotrax đã được lên kế hoạch cho bản phát hành tiếp theo và được cập nhật trong 1.072. Một số giọng hát như Dandy 704 bị hạn chế bởi cách xa chúng có thể được cải thiện. Ngoài ra, Chipspeech sẽ nhận được khả năng nói chuyện cũng như hát trong bản cập nhật lớn tiếp theo của nó. Chipspeech cũng đã được xuất khẩu sang Nhật Bản trong tháng 6 năm 2016. Việc tiếp nhận phần mềm chủ yếu là tích cực. Nó đã giành được 3 giải thưởng Âm nhạc máy tính; Lựa chọn, hiệu suất và sự đổi mới của biên tập viên. Phần mềm này được mô tả như một sản phẩm được đánh bóng tại buổi đánh giá MusicRadar của họ và được ghi nhận là "rất nhiều niềm vui để sử dụng".

AskAudio trong bài "Voice of the Machines" của họ tập trung vào thực tế là với việc nâng cao phần mềm Autotuning, con người luôn được yêu cầu. Chipspeech cho phép một cách tiếp cận hoài cổ để tổng hợp giọng hát với giọng hát của nó đến hoàn toàn từ một máy tính. Nó liệt kê các mặt tích cực của phần mềm là "Cực kỳ độc đáo, khá dễ sử dụng, âm thanh tuyệt vời, giá cả phải chăng" nhưng lưu ý là điểm yếu chính của nó là làm thế nào phần mềm căng thẳng CPU.

CDM, người đã được cấp quyền truy cập sớm độc quyền vào phần mềm, cũng nhấn mạnh cách các nhà tổng hợp hiện đại "nhàm chán" đã trở thành và tập trung vào "niềm vui" mà phần mềm cung cấp. Một trong những thành tích nổi bật của phần mềm này là làm thế nào hiếm một số chip lịch sử mà nó nhằm mục đích tái tạo đã trở thành.

Vào tháng 8 năm 2016, Chipspeech đứng đầu top 25 bảng xếp hạng nhạc cụ ảo tại Sonicwire, thuộc sở hữu của Crypton Future Media, đánh bại các sản phẩm Vocaloid của họ như Hatsune Miku mà thường thống trị bảng xếp hạng của họ.

Phiên bản 1.5 đã được phát hành vào ngày 16 tháng 9 năm 2016, thêm khả năng nói chuyện, điều chỉnh nâng cao và hai giọng hát mới "Rotten.ST" và "CiderTalk'84" dựa trên giọng hát của 16 giai đoạn cắn.

Vào năm 2017, Voder và Software Automatic Mouth đã được thông báo đến với phần mềm vào năm 2017.

LaLaVoice

LaLaVoice (ララボイス) là một bộ tổng hợp giọng hát được thiết kế cho tiếng Nhật.Phiên bản cuối cùng của phần mềm có tiêu đề "LaLaVoice2001". Phần mềm này chỉ được phát hành bằng tiếng Nhật và một hệ điều hành tiếng Nhật là cần thiết cho phần mềm.

LaLaVoice có một số khả năng, mà nó chủ yếu đạt được từ đầu vào text-to-speech cơ bản, mặc dù nó cũng có thể nhập các âm thanh bằng cách sử dụng một micro. Cũng như đọc văn bản đơn giản, nó có khả năng tạo ra giọng ca hát ("LaLaSong") và đọc các khung trang web cụ thể. Giọng hát đã vang lên khi chơi. Bản thân giọng hát được dựa trên một họ các nhân vật từ các thành viên thực tế hơn của gia đình (như bà, gái, trai, ông, vv) cho những người dự định là linh hồn dựa trên robot.

Phần mềm này cũng hỗ trợ Microsoft Office và có thể được sử dụng với Excel hoặc Word và thậm chí có thể đọc e-mail.

Chức năng cuối cùng của phần mềm là một chế độ mà một con thỏ được gọi là "SuPaamimi" ("すぅぱぁみみ") sẽ hoạt động như một chương trình quản lý lịch biểu. SuPaamimi cài đặt với một liên kết trên máy tính để bàn và sẽ đọc các cuộc hẹn ra.

NIAONiao Virtual Singer

NIAONiao Virtual Singer (Tiếng Trung: 袅袅虚拟歌手, bính âm: Niǎoniǎo xūnǐ gēshǒu), là một ứng dụng tổng hợp giọng hát miễn phí được xây dựng cho tiếng Trung và là trình tổng hợp giọng hát đầu tiên được sản xuất tại Trung Quốc. Phần mềm này hoạt động tương tự như phần mềm Vocaloid của Yamaha và một phần mềm chia sẻ miễn phí khác được gọi là UTAU.

Các voicebank mặc định được đặt tên là Yu Niaoniao (余袅袅), tuy nhiên các voicebanks bổ sung có thể được thực hiện thủ công để tạo ra giọng hát mới và các ngôn ngữ bổ sung là có thể. Trang web cho phần mềm cung cấp một số giọng hát khác để tải xuống.

Các mẫu chính được đóng gói trong một tệp lớn duy nhất. NIAONiao có thể có phụ âm cuối cùng trong một giọng nói, vì nó được xây dựng cho ngôn ngữ Trung Quốc. Có một bảng điều khiển ở phía dưới để kiểm soát các thông số, pitchbends và vibrato.

NIAONiao có thể nhập các tệp MIDI, tệp VSQX và tệp UST, xuất các bản nhạc ở định dạng tệp "Niao" (* .nn) và có thể hiển thị trực tiếp các bản nhạc thanh âm dưới dạng tệp WAV, MP3 hoặc MIDI.

Sharpkey

Sharpkey là một chương trình tổng hợp giọng nói được phát triển và phát hành bởi Boxstar vào năm 2016. Sharpkey là một hit trong cộng đồng VOCALOID hiện tại và dẫn đến sự sáng tạo và tham gia của các nhà sản xuất, bài hát và thậm chí cả hàng hóa.

Mặc dù tồn tại ngắn của Sharpkey, nó tạo ra 6 giọng nói riêng lẻ như Huan Xiao Yi, Kiana, Yuan Xiao, và nhiều hơn nữa. Nó cũng bắt đầu dự án Sharpkey Galaxy liên quan đến người hâm mộ trong việc tạo ra tiếng nói mới và hỗ trợ trong việc nêu rõ niềm tin của Sharpkey rằng âm nhạc nên được miễn phí cho tất cả mọi người.

Realivox

Realivox là một bộ tổng hợp giọng nói. Phần mềm cho phép chỉnh sửa và điều chỉnh âm thanh tinh tế. Phần mềm này có hai dạng, mặc dù cả hai đều nhắm đến mục tiêu tương tự. Nó cũng có thể làm việc với Kompakt.

Realivox Ladies: Đây là một phiên bản nhiều gói với 5 giọng nữ với mỗi giọng hát khác nhau - Cheryl (giọng hát thoáng mát được thiết kế cho các bộ phim), Teresa (ca sĩ opera soprano), Patty (nhạc pop và nhạc dân tộc), Julie (full phạm vi) và Toni (RnB). Không giống như Blue, Ladies tập trung vào 32 mẫu âm thanh chính đơn giản như "ah". Do mỗi trường hợp sử dụng tùy chọn lựa chọn giọng nói, có thể xây dựng giọng hát để tạo ra một dàn hợp xướng âm thanh bằng cách sử dụng năm giọng hát. Các gói đến như là một phiên bản "lite" hoặc "đầy đủ", với sự khác biệt là Teresa vắng mặt trong phiên bản lite. Gói này cũng đã được cập nhật lên phiên bản 2 kể từ khi phát hành ban đầu. Phiên bản cập nhật chứa gấp đôi số lượng khớp nối như bản gốc. Bản nâng cấp được cung cấp cho những người đã mua phiên bản đầu tiên miễn phí. Bản cập nhật được thực hiện với các bản ghi âm mới từ các ca sĩ gốc.

Realivox - Blue: Đây là một ca khúc phong cách cổ điển với một ca sĩ nữ solo. Trái ngược với sản phẩm "Realivox Ladies", Blue là một gói phức tạp hơn với các tính năng nâng cao. Giọng hát của cô phức tạp với 12.000 mẫu với 32 mẫu âm thanh bao gồm hai và một nửa quãng tám của kết quả hát, trong khi phụ âm đóng có 192 mẫu cho một số âm thanh như "t". Tất cả sáu nguyên âm chứa kết quả legato, điều này cũng được bao gồm cho âm thanh ồn ào âm thanh như "mm". Cô cũng có khả năng đa âm. Cô được thiết kế để trở thành một giọng hát giữa giọng hát và có tông màu trung thực. Các mẫu được kết hợp để xây dựng từ, với sự chuyển tiếp giữa các âm thanh gần như vô hình. Cô được phát hành vào ngày 26 tháng 5 năm 2014.

VOCALINA

VOCALINA (보카 리나) là một bộ tổng hợp giọng nói "văn bản thành giọng nói", đó là công nghệ tổng hợp giọng nói đầu tiên (Ca hát TTS Technology) được phát triển tập trung vào tiếng Hàn và tập trung vào ca hát. Nó được thiết kế để dễ sử dụng và tạo ra kết quả hát chất lượng cao. Nó được sử dụng và ca hát bằng tiếng Hàn, và có chức năng tương tự như của động cơ tổng hợp Vocaloid. Sử dụng trình soạn thảo người dùng có thể thay đổi độ cao giọng hát (Pitch), động lực (Dynamics), Vibe khẩu phần (Rung), Reverb (REV) và Echo (ECO) để có kết quả tốt hơn. Vì nó là một Studio, người ta có thể kết hợp các giọng hát ngay lập tức, nhập khẩu BGM là có thể.

Nó được cập nhật lần cuối vào tháng 9 năm 2013 lên phiên bản 2.2.0. Nó bổ sung thêm các chức năng mới như tăng cường khả năng cân bằng và khả năng sử dụng plug-in VST, bộ trộn track cũng được cải thiện. Chất lượng chung đã được cải thiện và âm thanh grating đã được gỡ bỏ, âm thanh tổng thể tổng thể đã được cải thiện rất nhiều trong khi chỉnh sửa và hiệu suất được tăng cường. Một công cụ tìm lời mới và đoạn cắt ngắn đã được thêm vào và hỗ trợ cho các tệp vorbis ogg đã được giới thiệu.

Vào ngày 1 tháng 1 năm 2016, nó cập nhật thành 2.3 chức năng mới.

Dịch vụ của Vocalina được cho là sẽ chấm dứt vào ngày 1/10/2017. Thỏa thuận này hiện đã được gia hạn thêm 1 năm nữa và dịch vụ sẽ kết thúc vào ngày 1 tháng 10 năm 2018 thay vào đó, với Vocalina là dịch vụ miễn phí cho đến lúc đó.

SynthV

SynthV là phần mềm tổng hợp giọng hát được tạo bởi Dreamtonic. Nó hỗ trợ một số ngôn ngữ khác nhau, như tiếng Anh, tiếng Nhật và tiếng Trung. SynthV tiếng Anh có Eleanor Forte là một giọng nữ tiếng Anh. Cô là một trong những giọng nói đầu tiên được giới thiệu cho phần mềm và là giọng nói đầu tiên được phát hành.Tên đầu tiên của cô, Eleanor, có nghĩa là "ánh sáng" và là một tên cao quý, họ của cô, Forte, có nghĩa là "sức mạnh", và tham chiếu đến năng động âm nhạc f (forte).

Các SynthV tiếng Trung bao gồm MAN-M1, MAN-F1, AiKO (艾可), Xích Vũ (赤羽), Shian (诗岸), Thương Khung (苍穹) và Hải Y (海伊). SynthV tiếng Nhật gồm JA-F1, Yamine Renri (闇音レンリ) và Genbu (ゲンブ).